home *** CD-ROM | disk | FTP | other *** search
Wrap
Zeichensätze (Fonts): "Die beiden Grundeinheiten in jedem heutigen Computer sind die Einheiten Bit und Byte . Ein Byte ist bei den heute üblichen Systemen als Folge von 8 Bit definiert (man spricht auch von Octets). Da jedes Bit zwei Zustände haben kann, nämlich 0 oder 1 bzw. ja oder nein, lassen sich mit einer Folge von 8 Bit genau 256 (= 8 hoch 2) unterschiedliche Zustände realisieren. Ein Byte kann also 256 unterschiedliche Werte haben. Da im Computer immer auch die 0 dazugehört, können in einem Byte dezimal ausgedrückt Werte zwischen 0 und 255 stehen. Wenn ein laufendes Programm im Computer eine Datei zeichenweise in den Arbeitsspeicher einliest, stehen im Arbeitsspeicher anschließend nur Byte- Werte. Wenn also ein WWW-Browser eine HTML-Datei in den Arbeitsspeicher ein- liest, besteht die Datei dort aus nichts anderem als Byte-Werten. Von Zeichen unseres Alphabets ist auf dieser Ebene noch keine Rede. Damit aus den Byte- Werten lesbare Zeichen werden, die sich am Bildschirm darstellen lassen, braucht es eine Konvention, die festlegt, welcher Byte-Wert als welches Zeichen dargestellt werden soll. Diese Aufgabe haben die sogenannten Zeichen- sätze. Zeichensätze sind Tabellen, die einem Byte-Wert ein Zeichen zuordnen, das in unseren Schriftkulturen eine Bedeutung hat."¹ Entwicklung der Zeichensätze und Standards: "Die Zeichensätze sind EDV-historisch gewachsene Gebilde. Bis zum Aufkommen der Personal Computer benutzten viele Rechner noch 7 Bit lange Grundeinheiten, mit denen sich nur 128 unterschiedliche Zustände darstellen lassen. Noch früher waren es auch mal 6 und 5 Bit lange Grundeinheiten. Auf der 7 Bit langen Grundeinheit beruhten die ersten Zeichensätze, die historisch den Durchbruch schafften: der ASCII-Zeichensatz und der EBCDIC-Zeichensatz . Dabei setzte sich vor allem der ASCII-Zeichensatz durch, weil er im erfolg- reichen Unix-Betriebssystem und in den aufkommenden Personal Computern zum Einsatz kam. Beim ASCII-Zeichensatz sind die ersten 32 Zeichen für Steuerzeichen reser- viert, etwa für Tastatur-Impulse wie Zeilenumbruch. Die Zeichen zwischen 32 und 127 sind darstellbare Zeichen, darunter alle Ziffern, Satzzeichen und Buchstaben, die ein Amerikaner so braucht (denn der ASCII-Zeichensatz kommt natürlich aus den USA). Lange Zeit war ASCII der einzige verbreitete Standard. Da die neueren Computer aber 256 lange Bytes hatten, war es folgerichtig, für die Werte zwischen 128 und 255 neue Verwendungszwecke zu finden. Dabei entwickelten sich jedoch proprietäre Lösungen. MS-DOS beispielsweise benutzt einen "erweiterten ASCII- Zeichensatz", der aber nicht viel mehr ist als eine schöne Umschreibung für die Microsoft-eigene Belegung der Zeichen 128 bis 255 speziell für die Bedürfnisse von MS-DOS. Um auch hierfür einen Standard zu schaffen, ersann die amerikanische Standar- disierungs-Organisation den ANSI-Zeichensatz . Dieser Zeichensatz übernimmt für die Zeichen 0 bis 127 den ASCII-Zeichensatz und definiert für die Werten zwischen 128 und 255 etliche Sonderzeichen, darunter wichtige Alphabetzeichen verbreiteter Sprachen, etwa deutsche Umlaute, französische Accent-Zeichen oder spanische Zeichen mit Tilde. Dazu kamen diverse verbreitete kaufmännisch-/ wissenschaftliche Zeichen. Der Bedarf an international gültigen Zeichensätzen wird jedoch immer größer. Ein Versuch, ein solches Set von Zeichensätzen zu etablieren, stellt die iso-8559-Familie dar ."¹ Die iso-8559-Zeichensätze "Die iso-8559-Familie wurde vom European Computer Manufacturer's Association (ECMA) entwickelt. Es handelt sich um ein Set von standardisierten Zeichensätzen für alphabetische Schriften. Dazu gehören die lateinischen Schriften, auf denen die meisten Sprachen Westeuropas und Amerikas beruhen, oder etwa die kyrillischen Schriften. Alle Zeichensätze dieser Familie basieren auf der 1-Byte-Abbildung eines Zeichens. Das heißt, alle Zeichensätze enthalten 256 mögliche Zeichen. Bei allen Zeichensätzen sind die ersten 128 Zeichen, also die Zeichen mit den Werten 0 bis 127, identisch mit dem ASCII-Zeichensatz. Das hat den Vorteil, daß die üblichen lateinischen Groß- und Kleinbuchstaben, die arabischen Ziffern und die üblichen Sonderzeichen wie Satzzeichen oder kaufmännische Zeichen in all diesen Zeichensätzen immer zur Verfügung stehen. So wie im ASCII-Zeichensatz die ersten 32 Zeichen (Zeichenwerte 0 bis 31) für Steuerzeichen reserviert sind, sparen auch die erweiterten Zeichensätze der iso-Familie einen Bereich von Zeichen aus. Es handelt sich um die ersten 32 Zeichen oberhalb des ASCII-Bereichs, also um die Zeichenwerte 128 bis 159."¹ Die verbleibenden Zeichenwerte 160 bis 255 werden für schriftspezifische Zeichen genutzt. ¹ Der Text ist zitiert nach SELFHTML (www.teamone.de/selfhtml) Nach dieser allgemeinen Beschreibung kommen wir nun zum Amiga. Der Amiga benutzt den Zeichensatz ECMA-94 Latin 1 . Dieser ist identisch mit dem iso-8559-1 und dem in Windows verwendetem ANSI. ECMA-94 Latin 1 ist für die meisten amerikanischen und westeuropäischen Sprachen gedacht. Im Einzelnen: Albanisch, Dänisch, Deutsch, Englisch, Faröerisch, Finnisch, Französisch, Galizisch, Irisch, Isländisch, Italienisch, Katalanisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch und Spanisch. Lediglich Zeichen wie "oe" (französisch) und "ij" (niederländisch) fehlen. Tabelle des ECMA-94 Latin 1: ASCII-Standard: 0 1 2 3 4 5 6 7 8 9 A B C D E F 0 @ A B C D E F G H I J K L M N O 1 P Q R S T U V W X Y Z [ \ ] ^ _ 2 ! " # $ % & ' ( ) * + , - . / 3 0 1 2 3 4 5 6 7 8 9 : ; < = > ? 4 @ A B C D E F G H I J K L M N O 5 P Q R S T U V W X Y Z [ \ ] ^ _ 6 ` a b c d e f g h i j k l m n o 7 p q r s t u v w x y z { | } - ISO-Erweiterung Latin 1: 8
9 Û ß A ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ® ¯ B ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿ C À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï D Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß E à á â ã ä å æ ç è é ê ë ì í î ï F ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ Tabelle2 Zeichen# (dezimal) Darstellung (in KeyShow) Bedeutung des einzelnen Zeichen 000 ^@ NULL - Null, nichts 001 ^A START OF HEADING - Anfang des Kopfes 002 ^B START OF TEXT - Anfang den Textes 003 ^C END OF TEXT - Ende des Textes 004 ^D END OF TRANSMISSION - Ende der Übertragung 005 ^E ENQUIRY - Stationsaufforderung, Anfrage 006 ^F ACKNOWLEDGE - positive Rückmeldung 007 ^G BELL - Klingel, an alten Teletypes, beim Amiga meißt aufblitzen der Screen 008 ^H BACKSPACE - Rückwärtschritt, ganz wörtlich, historisch des Wagens der Schreibmaschine um eine Zeichenposition, heute Bewegung des Cursors auf die Position des vorangehenden Zeichens. Wird von Tastaturen meist direkt in del übersetzt. 009 ^I HORIZONTAL TABULATION - Horizontaltabulator, Tabulator; eigentlich Sprung von aktueller Position in Zeile an die nächste der willkürlich zu setzende Positionen innerhalb der Zeile, heute zumeist (insb. unter Unix) Sprung auf die nächste Position, die sich als Vielfaches von 8 plus 1 ergibt (also 1, 9, 17, 25, 33, ...) 010 ^J LINE FEED - Zeilenvorschub, Übergang auf nächste Zeile. Historisch nur Zeilenschaltung der Schreibmaschine, es war auch noch ein cr nötig, um wieder an den Anfang der Zeile zu kommen. Daher ist in der DOS/Windows-Welt immer noch die Kombiation cr nl als Zeilenwechsel in Gebrauch, aber in der Unix-Welt markiert allein ein nl den Zeilenwechsel. Das hat zur Folge, daß bei Datenübertragung von ASCII-Texten immer darauf geachtet werden muß und eine Konvertierung nach diesen Konventionen stattfinden muß 011 ^K VERTICAL TABULATION - Vertikaltabulator 012 ^L FORM FEED - Formularvorschub, Übergang auf nächste Seite 013 ^M CARRIAGE RETURN - Wagenrücklauf, cr ist ein historisches Konzept, aber das sind auch DOS und MS-Windows, wo cr immer noch im Einsatz ist. 014 ^N SHIFT OUT - Dauerumschaltung in andere Codetabellen 015 ^O SHIFT IN - Rückschaltung in Standardcode 016 ^P DATA LINK ESCAPE - Datenübertragungsumschaltung, Datenkettenfehler 017 ^Q DEVICE CONTROL ONE - Gerätesteuerung 1 018 ^R DEVICE CONTROL TWO - Gerätesteuerung 2 019 ^S DEVICE CONTROL THREE - Gerätesteuerung 3 020 ^T DEVICE CONTROL FOUR - Gerätesteuerung 4 021 ^U NEGATIVE ACKNOWLEDGE - negative Rückmeldung 022 ^V SYNCHRONOUS IDLE - Synchronisationslauf 023 ^W END OF TRANSMISSION BLOCK - Ende des Datenübertragungsblocks 024 ^X CANCEL - ungültig, Abbruch 025 ^Y END OF MEDIUM - Ende der Aufzeichnung 026 ^Z SUBSTITUTE - Austausch eines Zeichens 027 ^[ ESCAPE - Umschaltung, Markerzeichen, welches eine Folge von Zeichen einleitet, die ein Sonderfunktionen an einem Endgerät veranlassen. Heute meist gebraucht in Zusammenhang mit Steuerzeichenfolgen nach ANSI-Standard X3.64 'additional controls for use with american standard code for information interchange' 028 ^\ FILE SEPARATOR - Hauptgruppentrenner 029 ^] GROUP SEPARATOR - Gruppentrenner 030 ^^ RECORD SEPARATOR - Untergruppentrenner 031 ^_ UNIT SEPARATOR - Teilgruppentrenner Beim Amiga haben einige dieser Zeichen (0-31) meißt eine andere Bedeutung, Funktion. Näheres dazu findet man (vorerst) im Benutzerhandbuch. 032 Leerzeichen 033 ! Ausrufungszeichen 034 " Anführungszeichen 035 # Raute, Nr. 036 $ Dollar 037 % Prozent 038 & Et (Ampersand) 039 ' Apostroph 040 ( Klammer auf 041 ) Klammer zu 042 * Sternchen 043 + Plus 044 , Komma 045 - Minus, Bindestrich 046 . Punkt 047 / Schrägstrich (Slash) 048 0 arab. Ziffer Null 049 1 arab. Ziffer Eins 050 2 arab. Ziffer Zwei 051 3 arab. Ziffer Drei 052 4 arab. Ziffer Vier 053 5 arab. Ziffer Fünf 054 6 arab. Ziffer Sechs 055 7 arab. Ziffer Sieben 056 8 arab. Ziffer Acht 057 9 arab. Ziffer Neun 058 : Doppelpunkt 059 ; Semikolon 060 < Kleinerzeichen 061 = Gleichheitszeichen 062 > Größerzeichen 063 ? Fragezeichen 064 @ At-Kontrollzeichen, (Commercial At) 065 A lateinischer Großbuchstabe 066 B lateinischer Großbuchstabe 067 C lateinischer Großbuchstabe 068 D lateinischer Großbuchstabe 069 E lateinischer Großbuchstabe 070 F lateinischer Großbuchstabe 071 G lateinischer Großbuchstabe 072 H lateinischer Großbuchstabe 073 I lateinischer Großbuchstabe 074 J lateinischer Großbuchstabe 075 K lateinischer Großbuchstabe 076 L lateinischer Großbuchstabe 077 M lateinischer Großbuchstabe 078 N lateinischer Großbuchstabe 079 O lateinischer Großbuchstabe 080 P lateinischer Großbuchstabe 081 Q lateinischer Großbuchstabe 082 R lateinischer Großbuchstabe 083 S lateinischer Großbuchstabe 084 T lateinischer Großbuchstabe 085 U lateinischer Großbuchstabe 086 V lateinischer Großbuchstabe 087 W lateinischer Großbuchstabe 088 X lateinischer Großbuchstabe 089 Y lateinischer Großbuchstabe 090 Z lateinischer Großbuchstabe 091 [ eckige Klammer auf 092 \ umgekehrter Schrägstrich (Backslash) 093 ] eckige Klammer zu 094 ^ Caret, Circumflex-Akzent 095 _ Unterstrich 096 ` umgekehrtes Anführungszeichen, Gravis-Akzent 097 a lateinischer Kleinbuchstabe 098 b lateinischer Kleinbuchstabe 099 c lateinischer Kleinbuchstabe 100 d lateinischer Kleinbuchstabe 101 e lateinischer Kleinbuchstabe 102 f lateinischer Kleinbuchstabe 103 g lateinischer Kleinbuchstabe 104 h lateinischer Kleinbuchstabe 105 i lateinischer Kleinbuchstabe 106 j lateinischer Kleinbuchstabe 107 k lateinischer Kleinbuchstabe 108 l lateinischer Kleinbuchstabe 109 m lateinischer Kleinbuchstabe 110 n lateinischer Kleinbuchstabe 111 o lateinischer Kleinbuchstabe 112 p lateinischer Kleinbuchstabe 113 q lateinischer Kleinbuchstabe 114 r lateinischer Kleinbuchstabe 115 s lateinischer Kleinbuchstabe 116 t lateinischer Kleinbuchstabe 117 u lateinischer Kleinbuchstabe 118 v lateinischer Kleinbuchstabe 119 w lateinischer Kleinbuchstabe 120 x lateinischer Kleinbuchstabe 121 y lateinischer Kleinbuchstabe 122 z lateinischer Kleinbuchstabe 123 { geschweifte Klammer auf 124 | Verkettungszeichen, Vertikale Linie 125 } geschweifte Klammer zu 126 ~ Tilde 127 Entfernen (Delete) 128 ~@ <control> - Steuerzeichen 129 ~A <control> - Steuerzeichen 130 ~B <control> - Steuerzeichen 131 ~C <control> - Steuerzeichen 132 ~D <control> - Steuerzeichen 133 ~E <control> - Steuerzeichen 134 ~F <control> - Steuerzeichen 135 ~G <control> - Steuerzeichen 136 ~H <control> - Steuerzeichen 137 ~I <control> - Steuerzeichen 138 ~J <control> - Steuerzeichen 139 ~K <control> - Steuerzeichen 140 ~L <control> - Steuerzeichen 141 ~M <control> - Steuerzeichen 142 ~N <control> - Steuerzeichen 143 ~O <control> - Steuerzeichen 144 ~P <control> - Steuerzeichen 145 ~Q <control> - Steuerzeichen 146 ~R <control> - Steuerzeichen 147 ~S <control> - Steuerzeichen 148 ~T <control> - Steuerzeichen 149 ~U <control> - Steuerzeichen 150 ~V <control> - Steuerzeichen 151 ~W <control> - Steuerzeichen 152 ~X <control> - Steuerzeichen 153 ~Y <control> - Steuerzeichen 154 ~Z <control> - Steuerzeichen 155 ~[ <control> - Steuerzeichen 156 ~\ <control> - Steuerzeichen 157 ~] <control> - Steuerzeichen 158 ~^ <control> - Steuerzeichen 159 ~_ <control> - Steuerzeichen 160 geschütztes Leerzeichen 161 ¡ umgekehrtes Ausrufezeichen 162 ¢ Cent-Zeichen 163 £ Pfund-Zeichen 164 ¤ Währungs-Zeichen 165 ¥ Yen-Zeichen 166 ¦ durchbrochener Strich 167 § Paragraph-Zeichen 168 ¨ Pünktchen oben 169 © Copyright-Zeichen 170 ª Ordinal-Zeichen weiblich 171 « angewinkelte Anführungszeichen links 172 ¬ Verneinungs-Zeichen 173 kurzer Trennstrich 174 ® Registrierte Marke-Zeichen 175 ¯ Überstrich 176 ° Grad-Zeichen 177 ± Plusminus-Zeichen 178 ² Hoch-2-Zeichen 179 ³ Hoch-3-Zeichen 180 ´ Akut-Akzent 181 µ Mikro-Zeichen 182 ¶ Absatz-Zeichen 183 · Mittelpunkt 184 ¸ Cedilla 185 ¹ Hoch-1-Zeichen 186 º Ordinal-Zeichen männlich 187 » angewinkelte Anführungszeichen rechts 188 ¼ ein Viertel 189 ½ ein Halb 190 ¾ drei Viertel 191 ¿ umgekehrtes Fragezeichen 192 À A mit Accent grave 193 Á A mit Accent acute 194 Â A mit Circumflex 195 Ã A mit Tilde 196 Ä A Umlaut 197 Å A mit Ring 198 Æ A mit legiertem E 199 Ç C mit Cedilla 200 È E mit Accent grave 201 É E mit Accent acute 202 Ê E mit Circumflex 203 Ë E Umlaut 204 Ì I mit Accent grave 205 Í I mit Accent acute 206 Î I mit Circumflex 207 Ï I Umlaut 208 Ð Eth (isländisch) 209 Ñ N mit Tilde 210 Ò O mit Accent grave 211 Ó O mit Accent acute 212 Ô O mit Circumflex 213 Õ O mit Tilde 214 Ö O Umlaut 215 × Mal-Zeichen 216 Ø O mit Schrägstrich 217 Ù U mit Accent grave 218 Ú U mit Accent acute 219 Û U mit Circumflex 220 Ü U Umlaut 221 Ý Y mit Accent acute 222 Þ THORN (isländisch) 223 ß scharfes S (deutsch) 224 à a mit Accent grave 225 á a mit Accent acute 226 â a mit Circumflex 227 ã a mit Tilde 228 ä a Umlaut 229 å a mit Ring 230 æ a mit legiertem e 231 ç c mit Cedilla 232 è e mit Accent grave 233 é e mit Accent acute 234 ê e mit Circumflex 235 ë e Umlaut 236 ì i mit Accent grave 237 í i mit Accent acut 238 î i mit Circumflex 239 ï i Umlaut 240 ð eth (isländisch) 241 ñ n mit Tilde 242 ò o mit Accent grave 243 ó o mit Accent acute 244 ô o mit Circumflex 245 õ o mit Tilde 246 ö o Umlaut 247 ÷ Divisions-Zeichen 248 ø o mit Schrägstrich 249 ù u mit Accent grave 250 ú u mit Accent acute 251 û u mit Circumflex 252 ü u Umlaut 253 ý y mit Accent acute 254 þ thorn (isländisch) 255 ÿ y Umlaut Jedes dieser Zeichen läßt sich theoretisch mit der Amiga-Tastatur erzeugen. Als Hilfe dazu gibt es das Programm "Keyshow" Hinweis: Die Ausgabe der Steuerzeichen wird meißt unterdrückt. #128-159 sind beim Amiga (nach iso-8559-1) als Steuerzeichen gedacht. Sie sind aber unbenutzt. 155, 159 bereiten leider in der Darstellung von Multiview einige Probleme: Bsp: ---------155-------159--------59--------95------ ------------------------------------------ Die Einführung der neuen Währung Euro und damit des Euro-Zeichen führt nun bei vielen Computer-Usern zu dem Problem, wie man dieses Symbol erzeugt. Die einfachste Lösung ist den Euro mit "EUR" oder "Euro" zu umschreiben. Ähn- lich, wie man z.B. ö durch oe ersetzt. Die nächste Idee wäre nun den Euro in die Zeichensätze einzufügen. Wenn man sich aber den in den meißten EU-Ländern gebräuchlichen Standard iso-8859-1 ansieht, stellt man fest, dass jedem der 256 Zeichen eine bestimmte Funktion zugewiesen ist. Und ich kann nicht entscheiden, welches Zeichen sinnvoll ist oder nicht. Auch wenn ich noch nie ¤ ¸ ÿ verwendet habe, kann ich nicht entscheiden ob jemand anderes sie nicht doch braucht. Also kann man diese Lösung verwerfen? Dazu muß man sich die Lösung die Microsoft gefunden hat näher anschauen. Nachdem man in MS-DOS einen eigenen Zeichensatz benutzt hatte, entschloß sich Microsoft den iso 8859-1 Standard zu übernehmen für Windows. Wahrscheinlich weil: - die grafischen Zeichen zur Gestaltung von Programmen in MS-DOS nun mit der Einführung einer grafischen Benutzeroberfläche unnütz waren. - es damals noch sehr viele User anderer Computer gab, mit denen die Windows-User ihre Texte austauschen wollten. - der MS-DOS-Zeichensatz wichtige Zeichen, die man in dem Absatzmarkt Europa brauchte, nicht enthielt. Dies führte zu vielen Problemen, die man in Windows teilweise noch erkennen kann, wenn man bedenkt, dass einige Win-Versionen noch auf MS-DOS aufgebaut sind. Bald kam aber das Problem, dass selbst der iso-8859-Standard nicht alle Zeichen enthielt. Also definierte MS einige, in Win ungebrauchte, Zeichen um. Dies waren die Steuerzeichen #128-159. Sie wurden nun ebenfalls zu Schriftzeichen, die hauptsächlich für das Microsoft Office nützlich waren. Nutzung der Zeichen 128-159 in MS-Windows: 128 ~@ Euro-Zeichen 129 ~A 130 ~B einfaches Anführungszeichen unten (deutsch) 131 ~C lateinischer Kleinbuchstabe f mit Haken 132 ~D Anführungszeichen unten (deutsch) 133 ~E horizontale Ellipse 134 ~F Kreuz 135 ~G Doppelkreuz 136 ~H Circumflex-Akzent 137 ~I Promille-Zeichen 138 ~J lateinischer Großbuchstabe S mit Caron 139 ~K einfaches angewinkeltes Anführungszeichen links 140 ~L lateinischer Großbuchstabe O mit legiertem E 141 ~M 142 ~N lateinischer Großbuchstabe Z mit Caron 143 ~O 144 ~P 145 ~Q umgekehrtes einfaches Anführungszeichen oben (englisch) 146 ~R einfaches Anführungszeichen oben 147 ~S umgekehrtes Anführungszeichen oben (englisch) 148 ~T Anführungszeichen oben 149 ~U Kugel 150 ~V n-Gedankenstrich 151 ~W m-Gedankenstrich 152 ~X kleine Tilde 153 ~Y Trade Mark-Zeichen 154 ~Z lateinischer Kleinbuchstabe s mit Caron 155 ~[ einfaches angewinkeltes Anführungszeichen rechts 156 ~\ lateinischer Kleinbuchstabe o mit legiertem e 157 ~] 158 ~^ lateinischer Kleinbuchstabe z mit Caron 159 ~_ lateinischer Großbuchstabe Y Umlaut Das Problem war nur, das dies kein offizieller Standard war sondern nur ein MS-interner. Inzwischen scherte man sich bei MS aber auch nicht mehr um Sys- temübergreifende Standards bei Computern, da sich MS schon sicher als Mono- polist fühlte. Um 1999 wurde das neue Euro-Symbol nun aktuell. Und MS definierte das noch unbenutzte Steuerzeichen #128 um zum Euro-Zeichen. Die Umstellung der Tasta- tur erfolgte ebenfalls. Bei Windows kann man nun den Euro mit der Tastenkom- bination ALTGr+E erzeugen. Dies brachte aber gleichzeitig noch einige Probleme mit sich, die wieder einmal zeigen, wie unüberlegt Microsoft unoffizielle Standards setzt: Genauso, wie es viele Standards für Zeichensätze gibt, gibt es auch viele für Tastaturbelegungen. Ein Beispiel: Beim Amiga wird @ durch ALT+2 erzeugt beim PC durch ALTGr+Q. Auf Amerikanischen Computer-Tastaturen lassen sich alle Zeichen die man in den USA benötigt nur mit der Shift-Taste erzeugen. Die ausländischen Sonderzeichen erzeugt man bei den meißten Computern, auch dem Amiga, indem man zusätzlich ALT benutzt. Befehle an die Workbench und Software werden mit Hilfe der beiden Amiga- Tasten gegeben. Steuerzeichen werden mit CTRL erzeugt. Als man nun die Computer nach Europa exportieren wollte, stellt man fest, das die SHIFT-Taste in einigen Ländern z.B. Deutschland nicht ausreicht um alle gebräuchlichen Schriftzeichen einzugeben. Beim Amiga war die Lösung einfach: Man benutzte ALT. Beim PC wurde ALT aber benutzt um Programme zu steuern, so ersann man eine Notlösung: die ALTGr-Taste, die nichts anderes bedeutet alls wenn man CTRL und ALT zusammen drückt. Dies führt aber zu nochmehr Problemen z.B, wenn man bedenkt, dass einige englische Programme die ALTGr-Taste nicht kennen und sie nicht als ALT sondern sogar als CTRL interpretieren. Programme, die nicht all ihre Befehle mit ALT oder ALT+SHIFT abdecken benutzten nun CTRL+ALT. Und so wurde auch CTRL+ALT+e belegt. Als man bei der Einführung des Euro-Zeichens dieses durch die Tastenkombi- nation ALTGr+e darstellen wollte, kam es nun zu heftigen Konflikten in Pro- grammen, die Microsoft, durch Updates für die Software lösen mußte. Aber diese von MS unüberlegt gesetzten Standards bei Tastaturen werden auch von Herstellern elektrischer Schreibmaschinen einfach übernommen und auf die mit viel sorgfalt durchdachten Konzepte draufgesetzt. Ein Witz ist übrigens das es neuerdings auf elektrischen Schreibmaschinen den Circumflex-Akzent ^ gibt: In jedem Schreibmaschinenkurs wird einem erklärt, daß man diesen erzeugt, wenn man Akut- ´ und Gravis-Akzent ` hintereinander eingibt und dann den Buchstaben: Probieren wir das mal mit der deutschen Amiga Tastatur mit e aus und man erhält ê. Bei Windows klappt das nicht dafür gibts ja eine extra ^-Taste. OK, die deutsche Amiga-Tastatur ist auch nicht perfekt: Man sollte immer bedenken das der Apostroph ' durch ALT+ä erzeugt wird! Das Zeichen ` ist umgekehrt und dessen Benutzung kann zu Problemen führen. Soll man nun für den Amiga die Windowslösung übernehmen? Tatsache ist, dass die meißten Fonts nach der Zeichenanordnung von MS-Windows aufgebaut sind. Also muß es auch für den Amiga eine Möglichkeit geben, diese Zeichen durch einen Tastaturcode zu erzeugen. Dies ist sehr einfach, wenn man sich obige Tabelle ansieht. Man weiß, dass das Euro-Symbol Zeichen#128 entspricht. Dieses Zeichen wird in KeyShow als ~@ dargestellt. Nachdem man ein bißchen in KeyShow gesucht hat findet man heraus, daß das Euro-Symbol durch drücken von CTRL+ALT+` erzeugt wird. Moment! ALT+CTRL wird doch beim Amiga nicht benutzt um Sonderzeichen zu er- zeugen, sondern nur ALT oder ALT+SHIFT. Ja, beim Amiga wird CTRL benutzt, wie bei allen Computern die den ASCII-Standard benutzen, um die Steuerzeichen 0-31 zu erzeugen. Und folglich wird CTRL+ALT benutzt um die "Sonder"Steuerzeichen 128-159 zu erzeugen. Denn der Amiga sieht diese Zeichen als Steuerzeichen an und nicht als Schrift- zeichen. Das führt dazu das sie in einigen Fällen gar nicht ausgegeben werden! Warum auch: für den Amiga sind es ja Steuerzeichen, die nicht gebraucht sind. Und erst recht nicht Schriftzeichen. Mit dem Voreinsteller I-Control kann man die Option Filter Texteingabefeld (Text gadget filter) deaktivieren. Dies ermöglicht die Übernahme von Steuerzeichen (#128=Steuerzeichen) in ein Textfeld. Diese Option zu deaktivieren ist nicht zu empfehlen, da man sonst nicht mehr Steuerzeichen benutzen kann. Unabhängig davon kann man Steuerzeichen in ein Texteingabefeld eingeben: Dazu hält man zusätzlich zu CTRL (ALT, SHIFT) noch die linke Amiga-Taste gedrückt. Bsp.: Euro-Zeichen: CTRL+ALT+linkeAmiga+` Mehr dazu im Benutzerhandbuch WB 3.0. Hinweis zu TrueType-Fonts beim TTF-Manager: Es kann sein, das ihr TTF ein Euro-Symbol enthält, aber es nicht angezeigt wird. Weil der TTF-Manager nach dem iso-8859-1 arbeitet. Dennoch können sie Zeichen #128-159, wie in Windows zuordnen. Sie müssen nur den "CP1252.txt" als Unicode-Codepage benutzen. Das Unicode-System "Unicode ist ein System, in dem die Zeichen oder Elemente aller bekannten Schriftkulturen und Zeichensysteme festgehalten werden. Durch dieses System wird es möglich, einem Computer zu sagen, welches Zeichen man dargestellt bekommen will. Voraussetzung ist natürlich, daß der Computer bzw. das ausge- führte Programm das Unicode-System kennt. Viele neuere Rechnertypen und Betriebssysteme basieren intern bereits auf dem Unicode-System. So werden beispielsweise bei Windows NT alle Zeichen, egal mit welcher Software Sie arbeiten, im Arbeitsspeicher intern als Unicodes gespeichert. Jedes Zeichen oder Element in Unicode wird durch eine zwei Byte lange Zahl ausgedrückt. Auf diese Weise lassen sich bis zu 65536 verschiedene Zeichen in dem System unterbringen. In Version 2.0 des Unicode-Standards sind 38885 Zeichen dokumentiert. Es ist also noch Platz genug. Damit es jedoch nicht irgendwann eng wird, gibt es mittlerweile ein erweitertes Schema, mit dem weit über eine Million verschiedene Zeichen in das System passen. Unicode geht dadurch konsequent über das Prinzip der einzelnen Zeichensätze hinaus. Mit Hilfe dieses Systems ist es beispielsweise möglich, mitten in einem deutschen Text mal eben ein paar arabische Wörter zu notieren. Auch für Steuerzeichen wie Silbentrennzeichen, erzwungene Leerzeichen oder Tabulator- zeichen gibt es Unicodes. Die Zeichen mathematischer Formeln fehlen ebenso- wenig wie die Silben- oder Wortzeichen fernöstlicher Schriftkulturen. Auch Einzelteile von Zeichen, wie etwa die Doppelpunkte über den deutschen Umlauten, haben einen eigenen Unicode. Zeichen lassen sich dynamisch kombinieren - so gibt es zwar natürlich auch ein deutsches "ä", aber der gleiche Buchstabe läßt sich auch aus "a" und dem Element für Doppelpunkt über dem Zeichen ¨ erzeugen. Neben der bloßen Adressierung eines Zeichens oder Elements ist im Unicode- System für jedes Zeichen auch ein Set von Eigenschaften definiert. Zur Eigen- schaft eines Zeichens gehört z.B. die Schreibrichtung (bei arabischen Zeichen etwa ist die Schreibrichtung von rechts nach links). Insgesamt stecken hinter dem Unicode-System unzählige Forschungsergebnisse der weltweiten Sprachwissen- schaft. Die Version 2.0 des Unicode-Systems ist konform zur internationalen Norm ISO/IEC 10646. Erstellt wurde diese Version vom Unicode-Konsortium und einer ISO-Arbeitsgruppe. Informationen zum Unicode-Konsortium finden Sie im WWW auf der Homepage des Unicode-Konsortiums www.unicode.org. Das große Problem von Unicode ist eigentlich nur, wie all die vielen Zeichen an einem Computer dargestellt werden sollen. Denn Unicode definiert nur Codes und Eigenschaften von Zeichen, aber es enthält ebensowenig wie herkömmliche Zeichensätze Angaben darüber, wie genau das Zeichen darzustellen ist. Dazu sind am Computer Schnittstellen wie Schriftarten erforderlich. Unsere heute ver- breiteten Computerschriftarten sind dazu jedoch kaum geeignet, da sie sich weitgehend an bestimmten Zeichensätzen orientieren. Dazu kommen Probleme wie die Umsetzung einer anderen Schreibrichtung. Zwar ist es ab HTML 4.0 möglich, Unicodes in HTML zu kodieren. Doch die zur tatsächlichen Darstellung erforder- liche Software-Intelligenz ist auf unseren heutigen Rechnern meist noch nicht gegeben. Auch der international gültige Standard Universal Character Set (UCS) nach Standard ISO 10646 beruht auf den Zeichenwerten des Unicode-Systems. Die Unicode-Zeichen Das Unicode-System ist in Zahlenbereiche aufgeteilt. Die Zahlen selbst werden in der Form U+XXXX notiert. Das U steht für Unicode, und die vier X für je eine hexadezimale Ziffer. Je zwei hexadezimale Ziffern decken ein Byte ab (das Unicode-System ist ja ein Zwei-Byte-System). Die einzelnen Zeichen im Unicode-System sind nicht wahllos angeordnet. Das gesamte System ist in Zeichenbereiche aufgeteilt. Die Zeichenbereiche spiegeln jeweils eine bestimmte Schriftkultur oder ein Set von Sonderzeichen wider."¹ ¹ Der Text ist zitiert nach SELFHTML (www.teamone.de/selfhtml) Das Euro-Zeichen hat hier den Code: 0x20AC. Um diese 16bit-Zeichen alle zu Nutzen, gibt es sogenannte Codepages. Diese ordnen jedem der 256 Zeichen eines 8bit-Zeichensatzes, wie der Amiga ihn benutzt, je ein Zeichen des Unicodes zu. So kann man den Zeichensatz nach seinen Bedürfnissen konfigurieren, oder es ermöglicht einem Texte von anderen Computern lesbar zu machen. Mann braucht nur die spezielle Codepage von: ftp://ftp.unicode.org/Public/MAPPINGS/ Um diese Codepages zu nutzen müssen es die Programme unterstützen, wie z.B. TTF-library und TTF-Manager. Um z.B Zeichen#128 für den Euro zu benutzen trägt man folgendes in die Code- page ein: 0x80 0x20AC #EURO SIGN Diesen Zweck erfüllt die Codepage CP1252.txt Zusätzlich erhält man die anderen Sonderzeichen von Windows für #128-159. Die Benutzung der CP1252 bringt keine Nachteile. Die Zeichen #128-159 erhalten nur ein Aussehen. Anstatt von Vierecken, werden nun Zeichen ausgegeben. Dies kann im Internet von Nutzen sein, da hier viele Windows-User diese Zeichen be- nutzen und der Amiga sie nun interpretiren kann. Keins der iso-8859-1 Schriftzeichen wird verändert oder ausgetauscht! Trotzdem gibt es Programme, die nun immer noch nicht den Euro darstellen, weil er auf #128 liegt. Und dieses Zeichen lauf Definition ein Steuerzeichen ist, kein Schriftzeichen ist und deshalb nicht ausgegeben wird. Da sich der Amiga strikt an das ISO-8859 System hält, hat man sich nun bei Amiga für die Benutzung des neuen ISO-8859-15 oder Latin 9 Standard ent- schieden. Der neue Standard von ISO: Die neue iso-8859-15 oder iso-8859 Latin 9 Norm, baut auf folgender Idee auf: Sie wurde um 1999 eingeführt um das Euro-Zeichen in den Standard Zeichen- satz eines Computers, der wie der Amiga, die iso-8859-1 Norm benutzt einzu- fügen. Latin 9 soll Latin 1 ablösen. Die neue Norm ersetzt selten gebrauchte Zeichen des Latin 1 durch neue wichtigere Zeichen: Nr. Latin 1 > Latin 9 Tastenkombination 164 ¤ Währungs-Zeichen - Euro-Zeichen ALT+z 166 ¦ durchbrochener Strich - S mit Caron ALT+SHIFT+i 168 ¨ Pünktchen oben - s mit Caron ALT+k, SPACE 180 ´ Akut-Akzent - Z mit Caron ALT+f, SPACE 184 ¸ Cedilla - z mit Caron ALT+m 188 ¼ ein Viertel - O mit legiertem E ALT+5 189 ½ ein Halb - o mit legiertem e ALT+6 190 ¾ drei Viertel - Y Umlaut ALT+7 Diese Lösung hat den entscheidenden Vorteil, daß sie nach dem Prinzip der iso- 8859 Familie aufgebaut ist. Das bedeutet hier werden keine Steuerzeichen als Schriftzeichen benutzt. Der Nachteil: Es besteht keine genaue Kompatibilität zu alten Texten, nach Latin 1. Hier wäre eine Kennzeichnung der Texte, wie z.B. in HTML, angebracht, die die neue Norm unterstützen. Und neue Versionen von z.B. More, Multiview würden, dies erkennen und automatisch den Text in Latin 9 anzeigen. Weiterer Nachteil: Diese Norm wird zur Zeit sehr selten genutzt. Die CP1252 von Windows ist am meißten verbreitet. Eine Codepage zum Latin 9 ist als iso-8859-15.txt gespeichert. Die Codepage iso-8859-15_ch.txt ist der obigen fast identisch, bis auf Zeichen #128-159, die CP1252 entsprechen. Damit können sie dann auch unsauber in Windows geschriebene HTML-Dateien lesen, die z.B. den Euro auf #128 haben. Sonst würden sie nur Platzhalter sehen können. Zum Schluß hat man (auch Microsoft) natürlich ein anderes Zeichen vergessen: Zeichen #162, Die DM wird durch den Euro ersetzt. Und der Pfennig? Das Zeichen für cent : ¢ . Bei der standard deutschen Amiga- Tastatur wird es durch ALT+SHIFT+4 erzeugt, bei der amerikanischen ALT+4. Bisher wird der ¢ aber meißt nur in Verbindung mit Dollar gebraucht. 100¢ = 1 $ Bis jetzt ist es üblich den "Euro cent" auszuschreiben. Matthias Bremm <matthiasbremm@gmx.de> P.S. Wenn irgendwas unklar ist an dem Text, Fehler darin sind, ... schreibt eine E-Mail.